Loading...
机构名称:
¥ 1.0

SpeechBrain 1 是一个基于 PyTorch 的开源对话式 AI 工具包,特别专注于语音处理任务,例如语音识别、语音增强、说话人识别、文本转语音等。它通过发布预训练模型以及训练它们所需的完整代码和算法“配方”,提高了透明度和可复制性。本文介绍了 SpeechBrain 1.0,这是该工具包发展的一个重要里程碑,现在它有超过 200 种语音、音频和语言处理任务配方,以及 Hugging Face 上提供的 100 多个模型。SpeechBrain 1.0 引入了新技术来支持多种学习模式、大型语言模型 (LLM) 集成和高级解码策略,以及新颖的模型、任务和模式。它还包括一个新的基准存储库,为研究人员提供了一个统一的平台来评估跨不同任务的模型。关键词:对话式 AI、开源、语音处理、深度学习。

arXiv:2407.00463v5 [cs.LG] 2024 年 10 月 16 日

arXiv:2407.00463v5 [cs.LG] 2024 年 10 月 16 日PDF文件第1页

arXiv:2407.00463v5 [cs.LG] 2024 年 10 月 16 日PDF文件第2页

arXiv:2407.00463v5 [cs.LG] 2024 年 10 月 16 日PDF文件第3页

arXiv:2407.00463v5 [cs.LG] 2024 年 10 月 16 日PDF文件第4页

arXiv:2407.00463v5 [cs.LG] 2024 年 10 月 16 日PDF文件第5页

相关文件推荐

2024 年
¥1.0